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Die folgenden Angaben sind den vom Anmelder eingereichten Urrterlagen entnommen 

Prufungsantrag gem. § 44 PatG ist gestellt 

<g) Sprachgefuhrte Geratesteuerung mit Benutzeroptimierung 

(57) Die Erfindung bezieht sich auf ein Verfahren zum Vor- 
bereiten, Betreiben oder Anpassen einer sprachgesteuer- 
ten Steuerungseinrichtung zur Bedienung eines techni- 
schen Gerates (52), wobet ein Audiosignal (s a ) aus zumin- 
dest einem von einem Sprecher abgegebenen Wort ei- 
nem ersten Signaleingang (10) einer Authentifizierungs- 
einrichtung (2) zugefuhrt wird. Eine Sprechererkennung 
erfolgt aufgrund eines Authentifizierungsversuchs (2), 
um einen Sprecher als Individium oder eine objektivierte 
Gruppe von Sprechern festzulegen, der der Sprecher 
durch objektivierte Kriterien des auf ihn zuruckzufuhren- 
den Audiosignals zuzuordnen ist, und ein entsprechendes 
Ausgangssignal (a, a*) abzugeben. Es wird ein zum fest- 
gelegten Sprecher oder der objektivierten Gruppe korre- 
spondierendes Profil (33) aus einer Vielzaht gespeicherter 
. Profile (32, Pj) ausgewahlt (2, 31), gestutzt auf das Aus- 
gangssignal (a, a*) der Authentifizierung und das ausge- 
wahlte Profil (33) in eine Erkennungsumgebung (4) einge- 
bunden oder geladen, um die Erkennungsumgebung auf 
den festgelegten Sprecher bzw. die objektivierte Gruppe 
hin anzupassen. Jedes der gespeicherten Profile (Pj) und 
das eingebundene oder geladene Profil (33) enthalt Para- 
meter, zur Beeinflussung zumindest einer in der Erken- 
nungsumgebung (4) vorgesehenen Wortfolgeerkennung 
(42). 
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Beschreibung 

[0001] Die Erfindung befafit sich mit einem Verfahren 
zum Betreiben einer Steuerungseinrichtung, die sprachge- 
steuert ist. Die Erfindung befaBt sich auch mit einem Verfah- 5 
ren zur Vorbereitung, also zur Einrichtung einer solchen 
Steuerungseinrichtung, um sprachgesteuert arbeiten zu kon- 
nen. Ebenfalls betroffen ist ein Verfahren zur Anpassung der 
Steuerungseinrichtung, um an unterschiedliche Sprachsi- 
gnale (Audiosignale) besser angepaBt zu werden. Sinnge- to 
maB ist das Betreiben ubergeordnet, umfaBt also sowohl die 
Vorbereitung, wie auch die Anpassung wahrend eines Be- 
triebes und umschreibt als solches den Betrieb einer sprach- 
gesteuerten Steuerungseinrichtung, allerdings sind Vorbe- 
reitung und Anpassung einzeine Funktionen oder Betriebs- 15 
weisen innerhalb der globalen Gesamtbetriebsweise. Inso- 
weit ist das Verfahren gemaB Anspruch 35 ein Betriebsver- 
fahren zum Betrieb eines Gerates, das mit Sprache (mit ei- 
nem Audiosignal) steuerbar ist. Auch eine Einrichtung zum 
Ausfuhren der Verfahren ist vorgesehen (Anspruch 34). 20 
[0002] Vorgelagert werden soil eine begriffliche Fesde- 
gung, um das Verstandnis zu erleichtern. Soweit von einem 
Audiosignal oder einem Sprachsignal die Rede ist, ist dieses 
Sprachsignal nicht zwingend ein unmittelbar gesprochenes 
Wort, das sich nach Aufnahme iiber eine Erfassungseinrich- 25 
tung, wie ein Mikrophon, als elektrisches Signal darstellt. 
Ebenso sind Sprachsignale auch off-line zur Steuerung ein- 
setzbar, wenn sie als eine Datei zur Verfugung gestellt wer- 
den oder iiber Netzwerke zunachst ubermittelt werden, be- 
vor sie zur Steuerung verwendet werden. Das Sprachsignal 30 
im weiterhin verwendeten Sinne umfaBt also nicht nur die 
unmittelbare Sprache, sondern generell das aus ihr in ir- 
gendeiner Weise folgende Signal, auch nach einer Zwi- 
schenspeicherung oder einer Zwischenubertragung. So ge- 
sehen kann das Sprachsignal als zeitabhangiges Signal vor- 35 
liegen, wie auch als ein Frequenzspektrum. Es enthalt eine 
Information, die der Spree her, also der Autor des Sprachsi- 
gnals, vermitteln will. Dieser erste Bedeutungsgehalt des 
Audiosignals soli erfaBt werden und soli dem Gerat zuge- 
ordnet werden, um eine Funktion dieses Gerates als "Ac- 40 
tion" anzusprechen. 

[0003] Der Sprecher ist der Urheber des Audiosignals. Er 
muB dem Erkennungssystem nicht bekannt sein, er muB 
auch dem Vorbereitungs verfahren, Betriebsverfahren oder 
Anpassungsverfahren nicht unbedingt bekannt sein. Das Sy- 45 
stem bereitet dann die Erkennung des Bedeutungsgehaltes 
vor, indem eine Vorbereitung durchgefuhrt wird. 
[0004] ist der Sprecher bekannt oder zumindest hinsicht- 
lich objektiver Kriterien im Rahmen einer Gruppe (im Sinne 
eines objektivierten Kreises von Personen) eingrenzbar, so 50 
kann das System eine eingeschrankte Anpassung erfahren. 
Der Betrieb findet dann mit dem angepaBten System oder 
mit dem vorbereiteten System statt. ist der Sprecher genauer 
konkretisierbar, liegt er als individuelle Person bereits in der 
Systemspeicherung vor, so kann das System unmittelbar auf 55 
ihn angepaBt werden. 

[0005] Soweit ein "Sprecher" genannt wird, ist eigentlich 
sein Sprachsignal oder das Audiosignal gemeint. Diese bei- 
den Begriffe werden synonym verwendet, das System arbei- 
tet aber nicht mit einer opuschen Erkennung des Sprechers, 60 
sondem mit einer Erkennung der akustischen Signale, die 
auf den Sprecher als Urheber zuriickzufuhren sind. 
[0006] Aus dem Stand der Technik sind Telefonanlagen 
mit Sprachsteuerung bekannt, von denen einige eriautert 
werden sollen. Aus US 5,917,891 (Will) wird vorgeschla- 65 
gen, das Anrufverhalten eines Benutzers zu verwenden, das 
aus einer Historie seines Anrufverhaltens hergeleitet ist und 
im Rahmen eines neuronalen Netzwerkes erganzende Ver- 
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wendung findet (vgl. dort Fig. 3). Ein solches Modeil (dort 
320) wird mit bestimmten Wochentagen und Zeiten ge- 
speist, um Wahrscheiniichkeiten einer gewunschten Tele- 
fonnummer zu ermitteln. Mit dieser stochastischen Vorbe- 
reitung wird eine Spracherkennung kombiniert (dort 330), 
wofur ein "Integrator" (dort 350) Verwendung findet. Hier- 
bei geht es nur um die Erkennung von Telefonnummern, die 
ggf. zuvor riickgefragt werden, bevor sie tatsachlich gewahlt 
werden, vgl. dort Spalte 7, Zeile 11 bis 56, insbesondere Zei- 
len 54 bis 56. Die dort beschriebene Spracherkennung (dort 
330) wird als entweder sprecher- unabhangig oder sprecher- 
abhangig beschrieben, wobei eine gewisse Anpassung die- 
ser Spracherkennung an den Sprecher erfolgen kann, wenn 
er als solcher gespeichert ist (Spalte 7, Zeile 28 bis 33). 
[0007] Eine alternative Struktur eines Telefonbuchs findet 
sich in US 5,832,063 (Vysotsky). Es wird dort eine Mi- 
schung aus sprecher-abhangigem Erkennungssystem und 
sprecher- unabhangigem Erkennungssystem vorgeschlagen, 
wobei ggf. ein Schiedsrichter (dort 406, 254) eine Entschei- 
dung fallen rnuB, ob eine Telefonnummer gewahlt worden 
ist oder ein Steuersignal (im Sinne eines Command- Wortes) 
gewiinscht war. Es ist die Sprecher-Abhangigkeit bei der 
Wahl der Telefonnummern vorgesehen, und die Sprecher- 
Unabhangigkeit bei der Wahl der Kommandos. 
[0008] Eine noch weitere Sprachsteuerung findet sich in 
der WO 95/28790 (Northern Telecom), wo eine Verande- 
rung der HMM dadurch erfolgt, daB sie abhangig von der 
durch Sprache angesprochenen und freigegebenen Telefon- 
nummer gemacht werden (vgl. dort Anspruch 1 und Seite 6, 
zweiter Absatz). SchlieBlich ist aus der US 5,995,929 
(Gupta) eine Spracherkennung zur Steuerung einer Telefon- 
anlage bekannt, bei welcher die Wahrscheinlichkeit von Be- 
reichen aufgrund eines Anrufmusters eingestellt werden. 
[0009] Aufgabe der Erfindung ist die Schaffung eines bes- 
ser an einen Benutzer angepaBten Systems zur sprachge- 
fuhrten Steuerung einer technischen Einrichtung, die bei- 
spiels weise eine Telefonaniage sein kann. 
[0010] Gelost wird diese Aufgabe mit Anspruch 1, An- 
spruch 30, Anspruch 34 oder Anspruch 35. 
[0011] GemaB der Erfindung erfolgt zunachst eine Spre- 
chererkennung. Diese Erkennung lauft darauf hinaus, einen 
individuellen Sprecher zu erkennen, der mit einem be- 
stimmten Profil in einer Datenbank bereits verfugbar ist. Die 
Spree hererkennung kann aber auch eine Gruppe (einen 
Kreis von Personen) identifizieren, die ebenfalls mit einem - 
aligemeineren, aber schon individualisierten - Profil in der 
Datenbank verfugbar sind. Diese objektivierte Gruppe um- 
schreibt eine Vielzahl von Sprechern, die aufgrund von ob- 
jektiven Kriterien dieser Gruppe zugeordnet werden kon- 
nen. Beispiele sind bestimmte Dialekte oder Landesspra- 
chen. Weitere Beispiele sind bestimmte psychometrische Ei- 
genschaften. Ebenfalls weitere Moglichkeiten sind Wort- 
schatzeigenschaften im Sinne der Wahl bevorzugter Worte. 
SchlieBlich konnen Satzbaueigenschaften ein objektiviertes 
Kriterium fur eine Spree hergruppe sein. MaBgebend ist da- 
fur aber jeweils das Audiosignal, das entweder dem Indivi- 
duum oder der objektivierten Gruppe (von Individuen) zu- 
geordnet wird. 

[0012] Eine Zuordnung im Sinne einer Authentifizierung 
muB nicht allein aufgrund eines Abschnitts des Audiosi- 
gnals erfolgen, es kann auch durch Sekundarindizien zu ei- 
ner solchen Authentifizierung kommen. Dabei kann aktives 
Zutun ebenso beteiligt sein, wie Begleitumstande, die eine 
Authentifizierung erlauben. 

[0013] Liegt ein Individuum als spezifischer Autor eines 
vorliegenden (aktuellen) Audiosignals vor, wird ein diesem 
zugeordnetes Profil ausgewahlt. Gleiches gilt fur den Fall, 
daB eine objektivierte Gruppe von Sprechern festgelegt wer- 
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den konnte, der dann ein anderes ProfiL zugeordnet werden 
kann, welches ausgewahlt wird. Es versteht sich, daB das 
Profil, das einer objektivierten Gruppe zugeordnet werden 
kann, allgemeiner ist als ein Profil, das einem spezifischen 
Individuum als Sprecher zugeordnet werden kann. 5 
[0014] Nach Auswahl des Profils wird dieses Profil, das 
mehrere Parameter einer Spracherkennung im Sinne einer 
Bedeutungserkennung umfaBt, in eine Erkennungsumge- 
bung geladen, die dazu dient, den ersten Bedeutungsgehalt 
des Audiosignals zu ermitteln. Mit diesem Laden oder Ein- 10 
binden, welche Begriffe sinngemaB dieselbe Bedeutung ha- 
ben, wird die Erkennungsumgebung angepaBt oder vorbe- 
reitet. Man kann auch von einer Konfiguration durch Para- 
meter sprechen, die von dem Profil in der Erkennungsumge- 
bung vorgegeben werden. Mit einer solchen Vorgabe (in 15 
Sinne einer Vorbereitung oder Anpassung) ist anschlieBend 
ein Betrieb der sprachgesteuerten Steuerungseinrichtung zur 
Bedienung eines technischen Gerates moglich, das aufgrund 
des ermittelten Bedeutungsinhaltes des Sprachsignals ange- 
steuert wird. Als Folge der Ansteuerung fiihrt das technische 20 
Gerat eine Aktion durch, die in beispielsweise der Bereit- 
stellung oder Wahlen einer Telefonnummer, dem Auslosen 
einer akustischen Ruckfrage im Sinne eines Dialoges oder 
der Schaltung einer Konferenz mit mehreren Teilnehmem 
besteht. Solche Funktionen sind abhangig von dem Typ des 25 
"angesprochenen" Gerates, das von einer Telefonanlage bis 
hin zu anderen steuerbaren Geraten vom Wesen her jedes 
technische Gerat sein kann. 

[0015] Die Steuerung des Gerates erfolgt durch die Erken- 
nung des Bedeutungsgehaltes des Audiosignals, das eine 30 
oder mehrere Funktionen des Gerates gleichzeitig oder 
nacheinander in vorgegebener Reihenfoige auslosen kann. 
Eine Aufteilung des Sprachsignals in einen zeitlichen Ab- 
schnitt fur die Erkennung von Eintragen und in einen zwei- 
ten Abschnitt fur die Erkennung von Schltisselworten ist 35 
nicht erforderlich. 

[0016] Die beschriebene Gruppe von Personen kann auf- 
grund objektivierter Kriterien festgelegt sein. Diese objekti- 
ven Kriterien sind erfaBbare Eigenschaften. Auch lokale 
"Eigenschaften" im Sinne einer ortlichen Befindlichkeit 40 
konnen verwendet werden, beispielsweise wird eine Gruppe 
von Personen definiert, die in einem bestimmten Stockwerk 
eines Gebaudes oder in einem bestimmten Raum eines Hau- 
ses sitzt, um von dort zu telefonieren, was schon aufgrund 
von Nebenstellenanschlussen als Sekundarindizien zur Au- 45 
thentifizierung fuhren kann. Hdrbare Eigenschaften sind 
Spracheigenschaften im Sinne von beispielsweise Dialekt 
oder Fremdsprache. 

[0017] Findet das Verfahren kein zugeordnetes Profil fur 
einen individuellen Sprecher oder fur eine objektivierte 50 
Gruppe, wird von einem Standardprofil ausgegangen (An- 
spruch 2). 

[0018] Dieses Standardprofil enthalt in sehr allgemeiner 
Weise spezifische Kriterien fiir die Einstellung der Erken- 
nungsumgebung, die weiter unten beschrieben werden. Das 55 
Standardprofil kann wahrend des zeitlichen Ablaufs des 
Analogsignals verandert werden, um zu einem individuellen 
Profil zu werden. Nach Veranderung wird dieses Profil als 
ein verfugbares Profil in einer Datenbank abgelegt (An- 
spruch 3). 60 
[0019] Die Veranderung des Profils kann die Veranderung 
des mit dem Profil verfugbar gemachten Wortschatzes be- 
treffen (Anspruch 21). Alternativ oder kumulativ kann auch 
eine Dialogausgabe in ihrer Eigenschaft verandert werden, 
um sich auf den durch das Profil reprasentierten Benutzer 65 
einzustellen und die Dialogausgabe in optischer oder akusti- 
scher Form auf das Wissen oder die Fahigkeit des Benutzers 
einzustellen. Eine weitere Moglichkeit der Anderung des 
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Siandard-Profils zum individuellen Profil ist die Vorgabe 
von Parametem zur Beeinflussung der Wortfolgeerkennung 
in der Erkennungsumgebung. Hier kann die Anzahl der zur 
Erkennung zugelassenen Wortfolgen verandert werden, wo- 
bei damit sowohl eine Reduzierung, wie auch eine Verlage- 
rung, wie auch eine Erweiterung gemeint ist. 
[0020] Eine Riickkopplung durch eine akustische oder op- 
tischc Signalisierung im Sinne einer Dialogaufforderung 
kann auch dazu verwendet werden, die Erkennungsumge- 
bung umzustellen, orientiert an den erwarteten Eingaben ei- 
nes Benutzers (Anspruch 23). Hier kann die Wortfolgeer- 
kennung eingeschrankt werden, um nur noch ganz spezifi- 
sche Wortfolgen zur Wortfolgeerkennung zuzulassen, insbe- 
sondere kann eine Art wiederholte Authentifizierung erfol- 
gen, wenn ein erster Authentifizierungsversuch gescheitert 
ist und dazu fuhrte, daB ein Standard-Profil in die Erken- 
nungsumgebung eingebunden wurde (Anspruch 23). 
SchlieBlich kann mit einer zum Dialog auffordernden Signa- 
lisierung ein Wechsel des derzeit in der Erkennungsumge- 
bung eingebundenen (oder geladenen) Profils vorbereitet 
oder veranlaBt werden (Anspruch 22), wobei anzumerken 
ist, daB die eigentliche Eingabe des Benutzers hier nicht von 
der Erfindung umfaBt ist, sondem allein die Signalisierung 
und die Vorbereitung zur Entgegennahme einer Eingabe zur 
Erreichung des technischen Effekts der Anpassung an einen 
Benutzer gentigt. 

[0021] Aufgrund von Sekundarindizien kann eine Voraus- 
wahl von auszuwahlenden Profilen getrofTen werden (An- 
spruch 4). Diese reduzierte Anzahl von verfugbar gemach- 
ten Profilen senkt die Wahrscheinlichkeit, daB falsche Pro- 
file ausgewahlt werden, und erhoht die Geschwindigkeit der 
Auswahl eines Profils durch die Authentifizierung. Neben 
statistischen Moglichkeiten konnen auch die erwahnten Se- 
kundarinformationen zu einer zunachst durchzufuhrenden 
Reduzierung des Umf angs der Profile fuhren, die iiberhaupt 
in die engere Auswahl gezogen werden. Ein Beispiel liegt 
darin, daB eine Nebenstelle nicht zwingend nur von einem 
Benutzer verwendet wird, sondern mehrere Benutzer in 
Frage kommen, die diese Nebenstelle verwenden. 
[0022] Abhangig von dem zugeordneten und in die Erken- 
nungsumgebung geladenen Profil kann die Steuerungstiefe 
der Steuerung angepaBt werden. Damit ist gemeint, daB die 
Reichweite der Steuerungsmoglichkeiten verandert werden 
kann, abhangig von dem Individuum oder der objektivierten 
Gruppe. Bestimmte Telefonbucheintrage konnen bei An- 
wendung einer Telefonanlage zusatzlich verfugbar gemacht 
werden, wenn in der Hierarchie hoher stehenden Personen 
authentifiziert werden. Bei Erkennung von unerfahrenen 
Personen, die auch als ein Profil in der Datenbank im Sinne 
eines Kreises von Personen verfugbar sind, konnen nur ganz 
begrenzte technische Moglichkeiten zur Steuerung des tech- 
nischen Gerates verfugbar sein, die beispielsweise wenig 
komplex sind. Zur Reduzierung der Reichweite der Steue- 
rungsmoglichkeiten (im Sinne der Steuerungstiefe) werden 
weniger Schlusselworte aktiv geschaltet, wenn sie in der Be- 
deutungserkennung der Erkennungsumgebung erkannt wer- 
den und dem technischen Gerat zur Ausfuhrung iibergeben 
werden. 

[0023] Abhangig von der Authentifizierung kann weiter- 
hin auch ein Bedeutungswandel erfolgen (Anspruch 9, An- 
spruch 12). Von einer bestimmten Nebenstelle - bei Anwcn- 
dung auf eine Telefonanlage - kann der Bedeutungswandel 
den BegrifT "mein Chef erfassen. Abhangig von der Au- 
thentifizierung und dem gewahlten Profil, das in die Erken- 
nungsumgebung geladen ist, bekommt das Wort "mein" eine 
unterschiedliche Bedeutung. Entsprechend der durch die 
"semantische Analyse" gewandelten Bedeutung wird das 
technische Gerat gesteuert. 
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[0024] Die semantische Analyse wird durch zumindest ei- 
nen weiteren Parameter des eingebundenen Profils beein- 
fluBt. 

[0025] Die Wortfolgeerkennung, die der semantischen 
Analyse vorgelagert ist, ist als lexikalische Analyse abhan- 5 
gig vorn durch das Profii bestimmten Wortschatz und Satz- 
bau (Syntax). Der Wortschatz wird von einer jeweiligen 
Stelle im Satz (als Folge von mehreren Worten) abhangig, 
d. h. an bestimmten Stellen in einem Satz werden nur be- 
stimmte Worte zugelassen und damit erkannt (Anspruch 35, 10 
Anspruch 28). Nachdem die fur den ErkennungsprozeB zu- 
gelassenen Wortfolgen, ggf. auch die zum Dialog aufifor- 
demden Signalisierungen, durch das Profii veranderbar sind, 
paBt sich die Erkennungsumgebung an eine beliebige Viel- 
zahl von Benutzern an, sei es durch Auswahien, Zuordnen 15 
und Einbinden eines einem schon bekannten Benutzer zuge- 
ordneten individualisierten Profils, dessen weitere Indivi- 
dualisierung und erneute Abspeicherung, oder sei durch De- 
finition von neuen individuellen Profilen, deren Ausgangs- 
punkt sowohl ein Standard-Profil wie auch solche Profile 20 
sein konnen, die auf die objektivierten Gruppen hin ange- 
paBt sind, welche auch als eine Art individualisierte Profile 
anzusehen sind, die aber nicht so stark individualisiert sind, 
wie die einzelnen Sprechern zugeordneten Profile. Alle Pro- 
file sind in einer Datenbank verfugbar, wobei eine zweite 25 
Datenbank vorgesehen sein kann, die der Erkennung und 
Zuordnung (im Rahmen der Authentiflzierung) zugewiesen 
ist, urn die in der ersten Datenbank verfugbaren Eintrage 
den authentifizierten Benutzern zuzuordnen. 
[0026] Wird eine neue Benutzergruppe angelegt oder ein 30 
neues individualisiertes Profii fur einen Benutzer in der Er- 
kennungsumgebung erstellt und anschlieBend in der ersten 
Datenbank abgespeichert, erfolgt auch eine Eintragsande- 
rung oder -erganzung in der zweiten Datenbank, zur Ermog- 
lichung der Zuordnung fur spatere akustische Signale, die 35 
von dem neuen Benutzer stammen. 

[0027] Die Wortfolgeerkennung (Anspruch 10) besitzt 
auch einen ihr zuganglichen Wortschatz, der durch das Pro- 
fii vorgegeben wird. Die Wortfolgeerkennung kann mit ei- 
ner Syntaxerkennung erganzt sein (Anspruch 11). 40 
[0028] Zur Verbesserung des akustischen Modells kann 
eine Anpassung dieses Modells abhangig von der Art der 
Ubertragung des Sprachsignals oder von der Art der Auf- 
nahme des Sprachsignals erfolgen (Anspruch 27). 
[0029] Von den beschriebenen Systemen, mit den das Ver- 45 
fahren ausgefuhrt wird, konnen zumindest zwei, bevorzugt 
mehrere Pfade ausgebildet werden, die gemaB den Merkrna- 
len (b) und (c) des Anspruchs 1 gestaltet sind, vgl. Anspruch 
30. Jeder dieser Pfade ist als eine Funktionslinie beschrie- 
ben, die eine jeweils eigene Erkennungsumgebung besitzt. 50 
Jeder der Erkennungsumgebungen wird das Sprachsignal 
identisch zugefuhrt. Vorgelagert ist nur eine Authentiflzie- 
rung fur alle Erkennungsumgebungen, der dasselbe Sprach- 
signal zugefuhrt wird. Abhangig von ihrem hier mehrdi- 
mensionalen Ausgangs signal werden den mehreren Erken- 55 
nungsumgebungen unterschiedliche Profile vorgegeben, die 
alle dem Sprachsignal zuordnungsfahig erscheinen, nach- 
dem keine eindeutige Festlegung erfolgen kann. Jede Linie 
arbeitet gesondert, besitzt eine gesonderte Anpassung durch 
Auswahl und Zuordnung eines eigenen Profils fur die je- 60 
weils gesonderte Erkennungsumgebung. 
[0030] Eine Entscheidungseinrichtung erhalt die Ergeb- 
nisse der Erkennungsumgebungen, um auszuwahlen, wel- 
ches Erkennungsergebnis dem technischen Gerat zu Steue- 
rungszwecken zugefuhrt wird. Beispielsweise kann auf- 65 
grund einer Schwellenentscheidung eine Bedeutung bevor- 
zugt werden, z. B. durch eine Strahlsuche (eine Suche, die 
die Bedeutungsinhalte der Erkennungslinien unterdrtickt, 
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deren Bewertung unter einer Schwelle liegt). Eine alterna- 
tive Vorgehensweise ist die Bereitstellung einer ungeraden 
Zahl von Erkennungslinien (jeweils gesonderte Profilaus- 
wahl und Erkennungsumgebung), um die Mehrheit ent- 
scheiden zu lassen, welche Bedeutung dem technischen Ge- 
rat zur Ausfuhrung weitergegeben wird (Anspruch 32). 
[0031] Ein Profii kann Parameter fur eine semantische 
Analyse und/oder eine lexikalische Analyse umfassen. Es 
konnen Parameter fur ein akustisches Modell noch hinzutre- 
ten. Die lexikalische Analyse besteht aus Wortschatz und 
Satzbau (Syntax, Aufbau des Satzes als Teil der Gramma- 
tik). Die semantische Analyse betrifft die Bedeutung von 
Worten (als Zeichenfolgen), auch die Bedeutung von Wort- 
folgen, bis hin zum Inhalt eines ganzen Satzes, Bevorzugt ist 
die Reihenfolge diejenige, ein akustisches Modell vorzula- 
gern, eine lexikalische Analyse folgen zu lassen und eine se- 
mantische Analyse hinzuzunehmen (Anspruch 12). Jede 
dieser drei Funktionsblocke innerhalb einer Erkennungsum- 
gebung wird von Parametern eines Profils beeinfluBt. Unter 
einer lexikalischen Analyse ist auch ein Wortschatz zu ver- 
stehen, der durch das ausgewahlte und in die Erkennungs- 
umgebung geladene Profii bestimmt wird. Er kann aus ei- 
nem vorgegebenen Anteil und einem auf den Benutzer oder 
die Benutzergruppe zugeschnittenen Anteil bestehen. 
[0032] Bei der semantischen Analyse (im Sinne der Adap- 
tion der Grammatik) kann der Bedeutungswandel erfolgen 
(Anspruch 9). Die Abhangigkeit ergibt sich iiber die Au- 
thentiflzierung in das ausgewahlte Profii, das hinsichtlich 
der die Semantik betreffenden Parameter auf die Erken- 
nungsumgebung EinfluB nimmt. 

[0033] Eine Dialogsteuerung kann zusatzlich vorgesehen 
sein. Diese Dialogsteuerung arbeitet uber eine optische oder 
akustische Riickkopplung und/oder uber eine Riickkopp- 
lung innerhalb der Erkennungsumgebung. Eine Riickkopp- 
lung iiber ein Signal, hin zum insoweit tatsachlich erreichba- 
ren Sprecher, fuhrt zu einer Auffbrderung des Systems dann, 
wenn die Bedeutung des vorliegenden akustischen Signals 
nicht eindeutig erfaBt werden kann oder zuvor ein individu- 
elles Profii nicht zugeordnet werden kann. 
[0034] Die optische (am Display) oder akustische Riick- 
kopplung der Dialogsteuerung ist primar orientiert an der 
Geubtheit des Benutzers. Ist das Profii, das ausgewahlt und 
geladen worden ist, kennzeichnend fur einen erfahrenen Be- 
nutzer, sind die Riickkopplungen iiber die akustisch oder op- 
tisch sich auBernden Signale schlicht und kurz. Bei gelade- 
nem Profii eines ungeiibten Benutzers oder bei mehrfachen 
Fehlern wird die Dialogsteuerung so beeinfluBt, daB die In- 
formationsfulle der Riickkopplung vergroBert oder intensi- 
viert wird. 

[0035] Im Profii konnen hinsichtlich der Dialogsteuerung 
bestimmte TVpen vorgegeben sein, die im Sinne von Be- 
griffspaaren (Kooperativitat, unkooperativ oder technischer 
Laie, Systemverstandnis) definiert sein konnen (Anspruch 
16, 21). Zumindest ein Parameter des Profils beeinfluBt vor- 
teilhaft die Eigenschaft der Dialogsteuerung. Die Ausgabe 
der Dialogsteuerung erfolgt optisch oder akustisch. 
[0036] Ausfuhrungsbeispiele erlautern und erganzen die 
Erfindung. 

[0037] Fig. 1 ist ein schematisches Funktionsbild einer 
Steuerungseinrichtung zur Steuerung des technischen Gera- 
tes 52, das im Beispiel als Telcfonanlage ausgestaltct sein 
kann. 

[0038] Fig. 2 ist eine Steuerungseinrichtung la, bei der je- 
weils eine Profilauswahl 31A und eine Erkennungsumge- 
bung 4A einen Erkennungspfad biidet, von denen mehrere 
parallel geschaltet sind. 

[0039] Fig. 3 veranschaulicht den inneren Aufbau einer 
Erkennungsumgebung 4, angesteuert von einem Sprachsi- 
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gnal s a und beeinfluBt (vorbereitet, konfiguriert oder ange- 
paBt) von einer Profilauswahl 31. 

[0040] Beschrieben werden soil das Verfahren zum Vorbe- 
reiten, Betreiben und Anpassen einer sprachgesteuerten 
Steuerungseinrichtung zur Bedienung eines technischen Ge- 5 
rates anhand einer Telefonanlage, die als Gerat 52 vorstell- 
bar ist, das gemaB Fig. 1 Befehle uber die Steuerungsleitung 
20 erhalt und in technische Funktioncn umsetzt, die als "Ac- 
tion" bezeichnet sind. Solche technischen Funktionen kon- 
nen das Wahien einer Telefonnummer, das Einleiten einer 10 
Konferenzschaltung, das Sperren eines Zugangs, das Urn- 
schalten auf ein anderes Telefon oder sonstige Funktionen 
sein, die von heutigen Telefonanlagen in einer GroBzahl an- 
geboten werden, allerdings jeweils wenig komfortabel ge- 
steuert uber Knopfdruck-Sequenzen oder Sondertasten. 15 
[0041] Die Sprachsteuerung bietet eine groBe Flexibilitat, 
eine leichte Bedienbarkeit und eine hohe Funktionalitat. Ein 
Leistungskriterium bei der Spracherkennung ist in erster Li- 
nie die Erkennungssicherheit. Sie wird geringer, wenn die 
Sprecher variieren, also eine Erkennung unabhangig vom 20 
Sprecher bereitgestellt werden soil. Daneben ist Erken- 
nungsgeschwindigkeit ein wichtiges Kriterium. Sie hangt 
von der Komplexitat der zugelassenen Wortfolgen ab. Je 
weniger Wortfolgen beriicksichtigt werden mussen, desto 
schneller die Erkennung, aber vor allem desto hoher die Er- 25 
kennungssicherheit. Ein EinfluBkriteriurn auf die Dauer und 
die Sicherheit der Erkennung ist der Wortschatz und die 
grammatikalische Komplexitat (= Perplexitat) des Sprachsi- 
gnals. Geht man deshalb von freiem Dialog mit kontinuier- 
licher Sprache aus und mochte jeden Sprecher zulassen, so 30 
muB das System Sicherheit mit Geschwindigkeit paaren, bei 
gleichzeitig komplexer Steuerungsmoglichkeit des techni- 
schen Gerates. Gegen eine drastische Reduzierung der zuge- 
lassenen Wortfolgen spricht aber, daB die AuBerung fur eine 
erfolgreiche Erkennung natiirlich auch dabei sein muB, um 
auch benutzerspezifische Wortfolgen erkennen zu konnen. 
[0042] Als eine Linie, mit der die Erkennungsumgebung 
der Fig. 3 skizzierbar ist, ist die Reihenfolge aus einem digi- 
talen Sprachsignal, einer Berechnung der akustischen Merk- 
male des Sprachsignals, die Besu'mmung der besten Wort- 
folge durch akustisches und syntaktisches Wissen sowie die 
semantische Analyse der Wortfolge anzugeben. Die seman- 
tische Analyse ergibt die Bedeutungserkennung, also den 
Inhalt des Sprachsignals, das uber die Steuerleitung 20 eine 
Aktion des Gerates 52 bewirkt. 

[0043] Eine Dialogstruktur durch Ausgabe eines riickkop- 
pelnden Sprachsignals 51 zum Sprecher kann zusatzlich 
vorgesehen sein. Sie folgt gewissen Strategien, die weiter 
unten erlautert werden sollen. 

[0044] Ausgangspunkt fur die Erkennung des Bedeu- 
tungsgehaltes eines Sprachsignals ist das Signal seibst. Die- 
ses Signal s a wird der Steuerungseinrichtung 1 an zwei Stel- 
len zugefuhrt, einem Eingang 9 der Erkennungsumgebung 4 
und an einem Eingang 10 der Authentifizierung 2. Das Si- 
gnal wird von einem Eingang oder einer solchen Schaltung 
11 bereitgestellt, der entweder ein Mikrophon lla oder ein 
digital oder analog gespeichertes Signal oder ein uber ein 
Netz ubertragenes Signal, bei nicht anwesendem Sprecher, 
vorgelagert ist. Der Authentifizierung 2 wird Sekundarinfor- 
mation 12 zugefuhrt. Die Schaltung zur Authentifizierung 
gibt ein Ausgangssignal "a" ab, mit dem ein Profil ausge- 
wahlt wird, was in einer Auswahlschaltung 31 mit Zuord- 
nungssektion 31* erfolgt, die Zugriff auf eine Datenbank 32 
besitzt, in der eine Vielzahl von Profiien Pi abgelegt sind. 
[0045] Mit der Profilauswahl 31 wird ein ausgewahltes 
Profil Pj , wobei i = 1 . . . n, in die Erkennungsumgebung 4 
geladen oder eingebunden. Das Einbinden oder Laden ist so 
zu verstehen, daB bestimmte Parameter der in der Erken- 
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nungsumgebung vorhandenen Funktionselemente verandert 
werden. Das eingebundene Profil ist mit 33 bezeichnet, es ist 
ein Element der gespeicherten individualisierten Profile Pi. 
Ein wei teres gespeichertes Profil ist das Standard-Profil P x , 
das weiter unten erlautert wird. 

[0046] Die Funktion der Authentifizierung und der Aus- 
wahlschaltung 31 mit Zuordnungssektion 31* kann zusam- 
mengcfaBt werden. Die Zuordnung kann uber eine zweite 
Datenbank geschehen, die auch als Teil der ersten Daten- 
bank 32 angesehen werden kann. Die Authentifizierung 
kennzeichnet einen Benutzer oder eine objektivierte Gruppe 
von Benutzem, um zugehorig ein Profil aus der Haupt-Da- 
tenbank 32 zu entnehmen, welche Zuordnung uber die 
Hilfs-Datenbank 31* erfolgt. Das ausgewahlte Profil 33 
wird in die Erkennungsumgebung 4 geladen. 
[0047] Der Erkennungsumgebung wird das Sprachsignal 
s a uber den genannten Eingang 9 auch zugefuhrt, so daB es 
mit den eingestellten Parametem des Profils 33 bearbeitet 
werden kann. Eine Darstellung des inneren Aufbaus der Er- 
kennungsumgebung ist in Fig. 3 gezeigt und wird spater er- 
lautert. 

[0048] Aus der Erkennungsumgebung folgt ein Signal 20, 
welches das technische Gerat 52 steuert. 
[0049] Die Erkennungsumgebung arbeitet zusammen mit 
einer Dialogsteuerung, die eine Signalausgabe 51 einsetzt. 
Diese Display- oder Sprachausgabe 51 ist nur dann sinnvoll, 
wenn das Signal angemessenem zeitlichen Rahmen einen 
Benutzer erreicht. Uber die Dialogsteuerung wird eine Si- 
gnalausgabe erzeugt, die an den Sprecher zuriickgekoppelt 
werden kann, was auch uber eine groBe Entfemung oder 
uber ein Netzwerk und auch zeitlich versetzt moglich ist. 
Bei Telefonanlagen ist die Erreichbarkeit durch Ruckkopp- 
lung unmittelbar ersichtlich, das Dialogsignal wird in die 
Horerleitung direkt eingeblendet, wahrend das Mikrophon 
als Quelle fiir das bearbeitete Signal s a dient. Gleiches kann 
auch auf optischem Wege durch ein Display erfolgen. 
[0050] Ein Benutzer, der ein akustisches Signal zum Mi- 
krophon lla gibt, spricht die Authentifizierung 2 an. Die 
Authentifizierung bestimmt den Sprecher. Sie versucht zu- 
nachst, aufgrund des gesprochenen Wortes eine Zuordnung 
zu finden, ob ein in der Datenbank 32 verfugbares individu- 
elles Profil zu dem Sprachsignal s a am Eingang 10 zugeord- 
net werden kann. Sekundarinformationen konnen stutzend 
oder alleinig herangezogen werden, beispielsweise als Ne- 
benstelleninformation, die angibt, weicher Benutzer das 
Sprachsignal abgibt. Der Benutzer kann sich auch aktiv 
seibst authentifizieren, was uber eine Dialogsteuerung mit 
Sprachausgabe 51 moglich ist. Steht kein spezielles Profil in 
der Datenbank 32 zur Verfugung, das von der Zuordnung 2, 
31, 31* eindeutig zugeordnet werden kann, wird das Stan- 
dard-Profil P x verwendet. Kann anhand des Sprachsignals, 
anhand der Sekundarinformation oder anhand von Eigeni- 
dentifizierung eine Zuordnung zu einem Kreis von Personen 
erfolgen, fiir den ein gespeichertes Profil zur Verfugung 
steht, wird dieses Profil als gruppenspezifisches Profil, be- 
trefTend eine Gruppe von Personen, ausgewahlt. Das ausge- 
wahlte Profil 33 wird in die Erkennungsumgebung 4 gela- 
den und beeinfluBt hierbei die an Fig. 3 naher zu beschrei- 
benden Parameter. Bei der Durchfuhrung der Spracherken- 
nung in der Erkennungsumgebung 4 ist durch das ausge- 
wahlte Profil vorgcgcben, wie die Erkennung erfolgen soil 
und welche Parameter dazu in den akustischen Modellen, 
bei dem Wortschatz anhand von geladenem Wortschatz 
(Worterbuchem) und in der semantischen Analyse Anwen- 
dung finden. 

[0051] Das Standard-Profil P x kann dann, wenn es in die 
Erkennungsumgebung 4 geladen ist, modifiziert werden. 
Das Standard-Profil P x bieibt dabei in der Datenbank 32 un- 
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verandert, nur das Abbild wird in der Erkennungsumgebung 
geandert, um nach der Anderung als ein individualisierteres 
Profil Pi neu abgespeichert zu werden. Die Veranderung 
kann dabei alle Bereiche der Parameter erfassen, die an der 
Profilumgebung naher erlautert werden, so Parameter fur die 5 
akustischen Modelle, Parameter fur die lexikalische Ana- 
lyse (Wortschatz und Syntax) sowie Parameter fur die se- 
mantische Analyse (Bedeutungswandel). Weitere Parameter 
fiir die Anpassung der Dialogsteuerung konnen ebenfalls 
verandert werden. Das Ruckspeichern eines erzeugten 10 
neuen individuellen Profils in die Datenbank 32 sorgt auch 
fiir eine Anpassung der Eintrage in der Hilfs-Datenbank 
31*, so daB die Authentifizierung 2 in Verbindung mit der 
Zuordnung 31 eine Auswahl auch zukiinftig vornehmen 
kann, wenn der Benutzer spater erneut auftritt. 15 
[0052] Wird in der Erkennungsumgebung ein schon vor- 
handenes individuelles Profil weiter individualisiert, er- 
ganzt, erweitert oder geandert, so wird dieses Profil an den 
urspriing lichen Platz in der Datenbank zurtickgespeichert 
und die Hilfs-Datenbank 31* als Zuordnung ssektion nicht 20 
erneut aktualisiert. 

[0053] Die Fig. 3 veranschaulicht den inneren Aufbau der 
Erkennungsumgebung 4. Das Sprachsignal s a wird dem Ein- 
gang 9a zugefuhrt. Das ausgewahlte Profil mit den mehreren 
Parametern wird an einem Eingang 8a zugefuhrt und stellt 25 
uber 41' Parameter des akustischen Modells 41, der lexikali- 
schen Analyse 42 und der semantischen Analyse 43, die in 
Serie geschaltet sind, ein. Eine Dialogsteuerung 44 ist der 
semantischen Analyse nachgeordnet und kann alle drei ge- 
nannten Funktionsblocke beeinflussen und von Parametern 30 
des Profils liber 41' beeinfluGt werden. Sie steuert auch eine 
Display- oder Sprachausgabe 51, mit der eine Ruckkopp- 
lung zum Urheber des Sprachsignals s a erfolgt. Aus der Dia- 
logsteuerung 44 oder aus der semantischen Analyse 43 di- 
rekt ergibt sich ein Steuersignal 20, das das elektrische Gerat 35 
52 zu einer Aktion veranlaBt, wenn es uber den Ausgang 7a 
zum Eingang 52a des zu steuernden Gerates 52 ubertragen 
wird. Die Aktion kann auch eine innere Aktion im Rahmen 
des technischen Gerates 52 selbst sein. 

[0054] Folgend sind einzelne Funktionen der Funktions- 40 
blocke 41, 42, 43 und 44 erlautert. 

[0055] Das akustische Modell oder die akustischen Mo- 
delle 41 werden adaptiert durch Vorgabe von Parametern 
aus dem Profil, wobei ein Abschnitt des Gesamtprofiles 
diese Parameter enthalt. Moglich ist eine unuberwachte Ad- 45 
aption aller oder eines Teils der akustischen Modelle anhand 
des maximum a posteriori Kriteriums. Akustische Modelle 
als solches sind Stand der Technik und konnen als HMM 
(Hidden Markov Model) oder als ein Sprachmodell Einsatz 
finden. Die Auswahl der einzustellenden Parameter ge- 50 
schieht anhand des zur Verfiigung stehenden Trainingsmate- 
rials des Sprecher, das zur Bildung des Profils gefuhrt hat. 
Es ist bereits mit einer AuBerung eine Anpassung der akusti- 
schen Modelle moglich, dabei werden nur Mittelwerte der 
verwendeten Ausgabeverteilungsdichten verandert. 55 
[0056] Ist als Profil das Standardprofil P x ausgewahlt, bei 
dem noch keine spezifische Zuordnung zum Sprachsignal 
vorliegt, so kann dieses Standardprofil im Laufe des Arbei- 
tens des akustischen Modells 41 angepaBt werden und zur 
Abspeicherung eines sich ergebenden neuen Profils fuhren. 60 
Die Parameter werden in Form von Merkmalen gespeichert, 
um moglichst platzsparend speichem zu konnen. 
[0057] Die Anpassung des akustischen Modells durch 
Einstellen von Parametern betrifft in der Regel die Einstel- 
lung von Merkmalen. Sind geniigend Daten vorhanden, 65 
konnen neben den Mittelwerten auch Kovarianzen angepaBt 
werden. 

[0058] Zur Verbesserung der Erkennung im akustischen 
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Modell kann ein Anpassen auch insoweit erfolgen, daB das 
Sprachmodell an die Art der Obertragung oder die Art der 
Aufnahme des aktuellen Audiosignals angepaBt wird. Die 
Art der Obertragung spricht den Kanal an, uber den das Au- 
diosignal ubertragen wurde, so das Festnetz, Mobilfunk 
oder Satellitenfunk. Die Art der Aufnahme spricht die Mog- 
lichkeit an, uber eine Freisprechanlage oder ein Mikrophon 
zu sprechen, ebenso konnte die Digitalisierung berucksich- 
tigt werden, oder die Verwendung eines analogen Audiosi- 
gnals. Es ergibt sich in jedem Fall eine bessere akustische 
Auswertung im akustischen Modell 41. 
[0059] Die Funktionseinheit 42, die auf die akustischen 
Modelle 41 folgt, enthalt uber das ausgewahlte und geladene 
Profil einen vorgegebenen Wortschatz, Ein vorgegebener 
Wortschatz enthalt spezifisch ausgewahlte Worter, die fiir 
das technische Gerat eine Bedeutung haben, und andere 
Worte. 

[0060] Im Falle einer Telefonanlage konnen beispiels- 
weise folgende Worter als Schliisselworter in einem festen 
System- Wortschatz verankert sein, der nicht an den Spre- 
cher angepaBt wird, sondern allenfalls an eine objektivierte 
Gruppe von Sprechern, also einen Kreis von Sprechern, die 
eine spezifische gemeinsame Eigenschaft besitzen, die er- 
faBbar ist. Ein Beispiel ist eine Wortschatzdefinition des fe- 
sten System- Wortschatzes fur eine Personengruppe, wie alle 
Bayem oder alle Berliner oder alle Sachsen. 
[0061] Als Fundus fur den festen Wortschatz (System- 
Wortschatz) konnen fur den Betrieb einer Telefonanlage die 
Begriffe "Telefonnummer", "Nebenstelle", "AnschluB", 
"Nummer", "Umleitung", "umleiten", "Ruf , "Telefonbuch", 
"Konferenz", "Schaltung", "Verbindung", "verbunden" ver- 
wendet werden. Kontextworte wie "die", "das", "den", 
"dem", "unser" "unseren", "in", "im", "bei", "von" sind ein 
zweiter Bestandteil des System- Wortschatzes. Ein dritter 
Bestandteil besteht aus Gruppenzuordnungen, wie "Firma", 
"intern", "Abteilung". Ein vierter Bestandteil des System- 
Wortschatzes kann in Tatigkeiten bestehen, die vorgegeben 
werden, namentlich "werden", "aufheben", "navigieren", 
"auswahlen", "Auswahl". Eine schlieBlich letzte Anteils- 
gruppe des System- Wortschatzes kann Schlusselinformatio- 
nen enthalten, die der Sprecher wiinscht, wie "kein", 
"keine", "Ahnung", "weiB", "ich", "mochte", "will", "spre- 
chen", "bitte". Es versteht sich, daB auch alle notigen Ziffern 
z. B. zwischen 0 und 99 Gegenstand des System- Wortschat- 
zes sind. 

[0062] Ein dynamischer Wortschatzanteil wird von dem 
Profil, das ausgewahlt und vorgegeben wird, bestimmt. Im 
dynamischen Wortschatz konnen Personen verzeichnet sein, 
mit denen der Sprecher, der uber das Profil definiert ist, nicht 
sprechen will oder sprechen mochte. In einem erganzenden 
Verfahren ist es moglich, nach einer durchgefuhrten Wahl 
uber eine Telefonnummer eine oder mehrere Personen auch 
bisher nicht gewahiter Anschliisse mit in das Profil zu iiber- 
nehmen, wobei als Kriterium eine gemeinsame Eigenschaft 
Anwendung finden kann. 

[0063] In einer einfachen Variante kann auch einfach von 
einem definierten Wortschatz ausgegangen werden, der von 
dem Profil der lexikalischen Analyse 42 zugeordnet wird. 
Die lexikalische Analyse arbeitet mit dem ihr zugeordneten 
Fundus an Worten. In einer genaueren Aufteilung konnen 
die oben beschriebenen System- Worte zumindest teilweise 
ubernommen werden; es kann auch eine Zuordnung be- 
stimmter System- Worte zu einem bestimmten Profil erfol- 
gen, wahrend andere System- Worte zu einem anderen Profil 
zugeordnet werden. Bereits hierdurch kann die zuvor be- 
schriebene Steuerungstiefe des zu steuernden Gerates 52 
profilabhangig werden. 

[0064] Die lexikalische Analyse 42 durch den Wortschatz 
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wird erg iinzt durch eine Adaption der Grammalik im Sinne 
der Syntax. AuBerungen des Benutzers werden, wie bereits 
oben erwahnt, zum einen in Form akustischer Merkrnale 
und in Form einer erkannten Kette gespeichert Ab einer ge- 
wissen Anzahl von AuBerungen konnen Ubergangswahr- 5 
scheinlichkeiten zwischen Wortem des zuvor beschriebenen 
Wortschatzes angepaBt werden, das die Produkuonswahr- 
scheinlichkeit der beobachteten BenutzerauBerungen maxi- 
miert. Dabei konnen u. U. ganze Pfade in der Syntax voll- 
kommen ausgeschaltet werden. io 
[0065] Ein solches Ausschalten findet dann statt, wenn - 
fur eine Telephonanlage - nur noch AuBerungen der Form 
"Herm Miiller der Firma Y" zugeiassen werden, aber solche 
AuBerungen, wie "ich mochte Herrn Miiller der Firma Y 
sprechen" nicht mehr zugeiassen werden. Aus Griinden der is 
Robustheit sollte jedoch die Moglichkeit gegeben werden, 
alternative Sprechformen zu berucksichtigen, allerdings 
schlechter zu bewerten. 

[0066] Die fur die Syntaxerkennung in 42 zugelassenen 
Wortfolgen konnen durch das Profil verandert sein. Die fur 20 
die Erkennung zugelassenen Wortfolgen konnen auch durch 
den Systemzustand, insbesondere den Eingriff der Dialog- 
steuerung 44 verandert werden, wenn nur eine begrenzte 
Anzahl von Bedeutungen zugeiassen oder erwartet werden. 
Der Wortschatz kann auch von der jeweiligcn Stelle in der 25 
Folge mehrerer Worte abhangig sein, d. h. an bestimmten 
Stellen in einer Wortfolge werden nur bestimmte Worte aus 
dem durch das Profil zugeordneten Wortschatz zugeiassen 
und damit erkannt. Die Einschrankung kann also sowohl die 
fur das nachste Wort zur Verfugung stehenden Worte aus 30 
dem Wortschatz betreffen, wie auch die Menge der zur Er- 
kennung zugelassenen Wortfolgen beeinflussen. 
[0067] Eine semantische Analyse 43 ist der lexikalischen 
Analyse nachgeschaltet. Auch sie wird beeinfluBt durch ei- 
nen Ausschnitt der Parameter aus dem ausgewahlten und 35 
geladenen Profil. Bei der semantischen Analyse werden Be- 
deutungen ermittelt, die einem Wort, einer Wortfolge oder 
einem ganzen Satz entspringen. Es konnen Wandel in der 
Bedeutung einflieBen. Die Authentifizierung hat EinfluB auf 
die Profilauswahl und die diesbezuglich relevanten Parame- 40 
ter beeinflussen die semantische Analyse. Ein bestimmter 
Begriff einer spezifischen Person oder einer Personengruppe 
wird in der semantischen Analyse neu belegt, so der Begriff 
"mein" abhangig von dem Anrufer, oder der Begriff "Emp- 
fanger" fur eine spezifisch wechselnde Person. Auch der Be- 45 
griff "mein Mann" kann sich in der Bedeutung wandeln. 
[0068] Eine Dialogsteuerung 44 arbeitet der semantischen 
Analyse nachgeordnet und beeinfluBt alle drei Funktionen 
41, 42, 43. Die semantische Analyse kann dann, wenn sie 
ein eindeutiges Ergebnis des Sinngehalts des Sprachsignals 50 
ermittelt, auch direkt den Ausgang 7a speisen. 
[0069] Die Dialogsteuerung ist vorgelagert, um Fehler zu 
verrneiden, Redundanz zu erlauben und eine Anpassung der 
Erkennungsumgebung 4 an den Sprecher, respektive das 
ihm zuzuordnende Sprachsignal Sa am Eingang 9a zu erlau- 55 
ben. Treten bei der Erkennung mehrmals Fehler auf, so wird 
in einen eingeschrankten Dialog umgeschaltet. Beispiels- 
weise geschieht das dadurch, daB nur noch nach einem ein- 
zigen Eintrag im Rahmen einer akustischen Riickkopplung 
iiber die Sprachausgabe 51 und Lautsprecher 51a gefragt 60 
wird. Es wird dann eine Antwort von dem Sprecher uber das 
Sprachsignal s a am Eingang 9a erwartet. Auf diese Antwort 
kann die Dialogsteuerung die akustischen Mode lie, die iexi- 
kalische Analyse und die semantische Analyse voreinstel- 
len. 65 
[0070] Die zuvor beschriebene Umschaltung auf einen 
eingeschrankten Dialog kann auch mehrstufig erfolgen, also 
in der hochsten Stufe kann dem Sprachsignal ein groBer 



Freiraum gegeben werden, in einer niedrigeren Stufe nur 
Vorname, Nachname und Firma, schlieBlich in einer ietzten 
Stufe nur ein einzelner Eintrag. Diese Stufenauswahl kann 
iiber einen gesamten Dialog hinweg gleich bleiben. 
[0071] Eine weitere Moglichkeit der Steuerung liegt in der 
Lange oder in dem Detail bzw. der Detaillierung der Sprach- 
ausgabe 51, 51a. Ein vertrauter Benutzer braucht wenig In- 
formationen iiber die Sprachausgabe durch die Dialogsteue- 
rung, um das System zielgerichtet anzusprechen und zu be- 
einflussen. Fur einen Anfanger werden langere Informatio- 
nen als Prompts vorgesehen, um ihm genauer vorzugeben, 
was von ihm als Sprachsignal am Eingang 9a gewiinscht 
wird. Die Abhangigkeit der Dialoglange hangt von der Ver- 
trautheit des Benutzers ab, was ein Merkmal in dem Profil 
sein kann, das ausgewahlt und iiber 31, 41' am Eingang 8a 
eingestellt wird. 

[0072] Aus Fig. 2 ist eine Paralielverarbeitung la ersicht- 
lich. Sie arbeitet mit einem System gemaB Fig. 1, dessen Er- 
kennungsumgebung 4 so gestaltet ist, wie Fig. 3 zeigt. Es 
sind mehrere parallele Linien F A Fb, . . . Fj, F x vorgesehen, 
die beliebig erweiterbar sind, wobei J = A, B, ... X. Jedes 
Ausgangssignal A, B, C, . . . X einer Erkennungsumgebung 
4A, 4B, 4C, . . . 4X einer der Linien Fj wird einer Entschei- 
dungsvorrichtung 6 zugefuhrt, die ein Ausgangssignal iiber 
einen Leitung 21 abgibt, das demjenigen der Leitung 20 aus - 
Fig. 1 entspricht, zur Steuerung des Gerats 52 uber einen 
Eingang 52a. Jede Erkennungsumgebung wird von einer 
Profilzuordnung 31A, 31B . . . 31X angesteuert, die aus der 
Datenbank 32 ein jeweiliges Profil abhangig von der Au- 
thentifizierung 2 ausliest und der zugehorigen Erkennungs- 
umgebung iiber 8a, 8b, . . . 8x zufuhrt. Das Sprachsignal s a 
wird der Authentifizierung und alien Erkennungsumgebun- 
gen gleichermafien uber einen jeweiligen Eingang 9a, 9b . . . 
zugefuhrt. Das Authentifizierungssignal a* wird alien Aus- 
wahlschaltungen 31A, 31B . . . gleichermafien zugefuhrt. 
Die Authentifizierung 2 selbst wird so iiber den Eingang 10 
angesteuert, wie in Fig. 1 gezeigt. Die Authentifizierung 
sorgt dafur, daB die zugeordneten Profile nicht dieselben 
sind. 

[0073] Alle Zuordnungsschaltungen 31A, 31B, . . . grei- 
fen auf die Datenbank 32 zu; fur die Zuordnung kann eine 
Hilfs-Datenbank entsprechend der Sektion 31* von Fig. 3 
herangezogen werden, die entweder der Zuordnungsschal- 
tung oder der Authentifizierung 2 funktionell zugeordnet ist. 
Die mehrdimensionale Ausgestaltung des Authentifizie- 
rungssignals a* sorgt dafur, daB jede Bedeutungserkennung 
4A, 4B, ... ein eigenstandiges Profil erhalt, so daB alle an 
der Paralielverarbeitung beteiligten Erkennungslinien mit 
unterschiedlichen Profilen arbeiten. 

[0074] Die gleichzeitige Analyse iiber verschiedene ein- 
gestellte Profile in den verschiedenen Erkennungsumgebun- 
gen, die alle parallel arbeiten, erlaubt eine genauere Anpas- 
sung und eine bessere Erkennung eines schwierigen Sprach- 
signals s a . Wahrend des Sprachsignals arbeiten alle Erken- 
nungen mit ihren akustischen Modellen parallel, nur unter- 
schiedlich dadurch, daB andere Merkrnale (Mittelwerte oder 
Kovarianzen) eingestellt sind. Das Ausgangssignal A, B 
oder X einer Bedeutung wird iiber die entsprechende Lei- 
tung in der Entscheidungsvorrichtung 6 auf die Mehrheit 
oder auf einen Schwellenwert hin iiberpruft. Das Ausgangs- 
signal auf Leitung 21 stcuert das technische Gcrat 52 iiber 
seinen Eingang 52a. Die SchweUenuberprufung kann durch 
eine Strahlsuche erfolgen (eine Suche, die alle Erkennungs- 
pfade unterdriickt, deren Bewertung unter der Schwelle 
liegt, wobei die Schwelle durch die Bewertung des zu dieser 
Zeit besten Pfades liegt). Es ist wahrscheinlich, daB nach ei- 
ner kurzen Zeit nur noch solche Pfade innerhalb eines Sy- 
stems nach Fig. 2 wirksam sind. Dadurch werden im weite- 
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ren Verlauf der Spracherkennung alle anderen Profile, deren 
Ausgangssignal unter der Schwelle liegt, nicht mehr ausge- 
wertet. 

[0075] Der Entscheidungseinrichtung 6 kann auch eine Si- 
gnalausgabe 51, 51a, die akusdscher Natur oder als Display 5 
optischer Natur ist, ansteuern. Mit ihr konnen Ruckkopplun- 
gen angestoBen werden, wenn sich bei der Fesdegung der 
fur die Steuerung maBgebenden Auswahleingange A, B, etc. 
Differenzen ergeben, die es notwendig erscheinen lassen, 
eine Ruckfrage einzuleiten, eine Information zur Bedienung 10 
auszugeben oder lediglich Statussignale verfugbar zu ma- 
chen. 

[0076] Ein Profil ist bislang als in der Datenbank 32 vor- 
handen angesehen worden. Die Erstellung eines solchen 
Profils war oben bereits skizziert. Sie erfolgt wahrend des is 
Auswertens eines akustischen Signales s a im akusdschen 
Modell, in der lexikalischen Analyse und in der semanti- 
schen Analyse. Das eingangs angesprochene Standardprofil 
kann so beeinfluBt werden und ruckgespeichert werden, zur 
Bildung eines neuen Profils. Diese RQckspeicherung kann 20 
sowohl bei Fig. 1 erfolgen, wenn ein einzelner Erkennungs- 
pfad 31, 4 Anwendung findet, wie auch bei Fig. 2, wenn drei 
Erkennungspfade F A , F B und F x Anwendung finden. 
[0077] Sind die mehreren Erkennungspfade gemaB Fig. 2 
vorgesehen, kann auch eine alternative Bildung eines neuen 25 
Profils gewahlt werden. Bleiben bei dieser Art der Verarbei- 
tung des Sprachsignals am Ende noch mehrere Pfade mit un- 
terschiedlichen Profilen aus der Datenbank ubrig, so werden 
die stadsdschen Eigenschaften entsprechend der statisti- 
schen Bewertung der besten Pfade innerhalb der verschiede- 30 
nen Interessensprofile aufsummiert, und es entsteht ein 
neues Profil, das abgespeichert wird. 

[0078] Die Bildung eines neuen Profils kann auch die An- 
derung eines bestehenden Profils sein, das an seinen Spei- 
cherplatz zugespeichert wird, unter Beriicksichtigung der 35 
sich wahrend der Auswertung der Sprache ergebenden An- 
derungen in den Merkmalen gemaB den Einzelfunkdonen 
41, 42, 43, ggf. auch unter Beriicksichtigung von Anderun- 
gen in der Einrichtung der Dialogsteuerung 44. 
[0079] Eine Vorgehensweise bei der Bildung eines neuen 40 
Profils kann bei der Anwendung der Struktur nach Fig. 2 
darin liegen, eine Erkennungslinie, beispielsweise F x , im- 
mer mit dem Standardprofil zu betreiben, wahrend das glei- 
che Sprachsignal uber ein anderes ausgewahltes Profil aus 
der Datenbank 32 in zumindest einem der anderen Pfade 45 
nach MaBgabe der Authendfizierung 2 und der Zuordnung 
31 ausgewertet wird. Das Ergebnis des Standardprofils kann 
dann verglichen werden mit dem Ergebnis des eigentlich ein 
besseres Ergebnis versprechenden Spezialprofils. 
[0080] Wird in einer Parallelverarbeitung regelmaBig ein 50 
Standardprofil P x verwendet, braucht diese Profilauswahl 
nicht von der Authendfizierung 2 mit angesteuert zu wer- 
den, sondern bleibt unabhangig davon. 
[0081] Neb en einer Anpassung des Standardprofiies an ei- 
nen Sprecher kann auch eine Verbesserung des Standards 55 
selbst erfolgen, durch Erganzung von Merkmalen der aku- 
sdschen Mode lie, der lexikalischen Analyse oder der se- 
mandschen Analyse. Dieses neu gebildete Standardprofil 
wird in der Datenbank 32 so zuriickgespeichert, daB es fur 
alle parallelen Profilauswahlen als Standardprofil wieder 60 
verfugbar ist. 

[0082] Erfolgt die parallele Verarbeitung regelmaBig mit 
einem Standardprofil kann auch die durch Sekundarinfor- 
madon fehlgeleitete Vorauswahl eines Profils behoben wer- 
den. Ruft uber eine Nebenstelle regelmaBig derselbe Spre- 65 
cher an, und wird diese Nebenstelle einmal von einem ande- 
ren Benutzer verwendet, so ware die Auswahl uber die Se- 
kundarinformadon im Rahmen der Authendfizierung 2 un- 



richdg. Hier hilft die standardmaBig verwendete Erkennung 
uber das Standardprofil im Erkennungspfad F x , deren Er- 
kennungsergebnis X im automatischen Entscheider 6 Uber 
einen Schwellenwert oder uber eine Giitefunkdon mit dem 
Erkennungsergebnis des eigendich besseren Profils vergli- 
chen wird. Die Entscheidungseinrichtung legt fest, welche 
Erkennung sicherer funkdoniert hat, und nimmt das entspre- 
chende Profil aus dem Speicher 32. 

Patentanspriiche 

1. Verfahren zum Vorbereiten, Betreiben oder Anpas- 
sen einer sprachgesteuerten Steuerungseinrichtung zur 
Bedienung eines technisches Gerates (52), wie eine Te- 
lefonvermittlung oder eine Telefonanlage; wobei ein 
Audiosignal (sj aus zumindest einem von einem Spre- 
cher abgegebenen Wort, insbesondere mehreren auf- 
einanderfolgenden Worten, welche einen Bedeutungs- 
gehalt besitzen und insoweit erkannt werden sollen, ei- 
nem ersten Signaleingang (10) einer Authentifizie- 
rungseinrichtung (2) zugefuhrt werden; wobei 

(a) eine Sprechererkennung aufgrund eines Au- 
thendfizierungsversuchs (2) erfolgt, insbesondere 
durch einen zeitlichen Abschnitt des Audiosignals 
(sj, durch Erkennen einer Selbstauthentifizierung 
mittels aktiven Zutuns, oder durch Auswerten von 
Sekundarindizien (12), wie eine bekannte Tele- 
fon-Nummer, ein Nebenstellen-AnschluB, um ei- 
nen Sprecher als Individuum oder eine objekd- 
vierte Gruppe von Sprechern festzulegen, der der 
Sprecher durch objekdvierte Kriterien des auf ihn 
zuruckzufuhrenden Audiosignals zuzuordnen ist, 
und ein entsprechendes Ausgangssignal (a, a*) 
abzugeben; 

(b) ein zum festgelegten Sprecher oder der objek- 
dvierten Gruppe korrespondierendes Profil (33) 
aus einer Vielzahl gespeicherter Profile (32, PJ 
ausgewahlt (2, 31) wird, gestiitzt auf das Aus- 
gangssignal (a, a*) der Authendfizierung; 

(c) das ausgewahlte Profil (33) in eine Erken- 
nungsumgebung (4) eingebunden oder geladen 
wird, um die Erkennungsumgebung auf den fest- 
gelegten Sprecher bzw. die objekdvierte Gruppe 
hin anzupassen; wobei 

(d) jedes der gespeicherten Profile (Pi) und das 
eingebundene oder geladene Profil (33) Parameter 
enthalt, zur Beeinflussung zumindest einer in der 
Erkennungsumgebung (4) vorgesehenen Wort- 
folgeerkennung (42). 

2. Verfahren nach Anspruch 1, bei dem nach dem Au- 
thendfizierungsversuch, der kein Profil fur das aktuelle 
Sprachsignal als korrespondierend ergibt, ein Stan- 
dardprofil (P x ) ausgewahlt wird und in die Erkennungs- 
umgebung eingebunden wird (33). 

3. Verfahren nach Anspruch 2, bei dem das in der Er- 
kennungsumgebung geladene Standard-Profil (P x ) 
wahrend einer zeitlichen Dauer des Sprachsignals (im 
folgenden "aktuelles Audiosignal") auf dieses Sprach- 
signal hin angepaBt wird, um zu einem individuellen 
Profil (Pi) zu werden, das abgespeichert wird (32). 

4. Verfahren nach Anspruch 1, bei dem vor dem Aus- 
wahlen oder Zuordnen eines gespeicherten Profils eine 
reduzierte Anzahl wahrscheinlicher Profile, die sich im 
Umfang der gespeicherten Profile befinden, als Aus- 
wahlmdglichkeiten bereitgestellt werden, um eine 
Vorab-Auswahl von - verrnutlich zuzuordnenden - 
Profilen als einen eingeschrankten Auswahlbereich zur 
Verfugung zu stelien, und daraus ein an das Audiosi- 
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gnal am besten angepasste Profil auszuwahlen und in 
die Erkennungsumgebung (4) zu laden (33). 

5. Verfahren nach Anspruch 1, bei dem das ausge- 
wahlte und eingebundene (33) Profil zumindest ein 
HMM oder ein Sprachmodell fiir ein akustisches Mo- 5 
dell (41) als ersten Erkennungsabschnitt in der Erken- 
nungsumgebung (4) umfaBt. 

6. Verfahren nach Anspruch 1, bei dem abhangig von 
dem ausgewahlten und geladenen (33) Profil mehr oder 
weniger Schlusselworte oder mehr oder weniger Infor- 10 
mationseintrage (gespeicherte Informationen) zugelas- 
sen werden oder iiber das Audiosignal gesteuert aus- 
wahlbar sind, um die Steuerungstiefe der Steuerung 
des technisches Gerates (52) von dem aktuellen Audio- 
signal und damit von dem authentifizierten Sprecher is 
abhangig zu machen. 

7. Verfahren nach Anspruch 1, wobei die objektivierte 
Gruppe ein Kreis von Personen ist, der zumindest eine 
gemeinsame, erfaBbare Eigenschaft besitzt, die eine 
objeklivierte Zuordnung erlaubt, ob der iiber das Au- 20 
diosignal zugeordnete Sprecher zu dem Kreis von Per- 
sonen zuzuordnen ist oder nicht. 

8. Verfahren nach Anspruch 7, wobei die Eigenschaft 
horbar, meBbar oder durch einen iokalen Zustand der 
Befindlichkeit definiert ist. 25 

9. Verfahren nach Anspruch 1, wobei abhangig vom 
Ausgangssignal (a, a*) der Authentifizierung (2) der 
Bedeutungsgehalt eines von der Erkennungsumgebung 
erkannten objekti ven Wortes oder Wortfolge im Audio- 
signal (sj einem Bedeutungswandel unterworfen wird, 30 
um das technische Gerat (52) entsprechend der gewan- 
delten Bedeutung zu steuern. 

10. Verfahren nach Anspruch 1, wobei die Wortfolge- 
erkennung (42) in der Erkennungsumgebung iiber ei- 
nen durch das eingebundene Profil (33) vorgegebenen 35 
Wortschatz verfugt. 

11. Verfahren nach Anspruch 1 oder 10, wobei die 
Wortfolgeerkennung eine Syntaxerkennung beinhaltet. 

12. Verfahren nach Anspruch 1 oder 10, wobei der 
Wortfolgeerkennung (42) in der Erkennungsumgebung 40 
(4) eine semantische Analyse (43) nachgeordnet ist, die 
von zumindest einem der Parameter des eingebunde- 
nen Profils (33) beeinfluBt wird. 

13. Verfahren nach Anspruch 1 oder 10, wobei ein 
Profil (PO Parameter enthalt, und zwar fur die Vorgabe 45 
eines Wortschatzes aus einem vorgegebenen Anteil 
von Worten eines Systemwortschatzes und einem spre- 
cherspezifischen Anteil von Worten. 

14. Verfahren nach Anspruch 13, wobei der vorgege- 
bene Bestandteil des Wortschatzes festgeiegte Worte 50 
enthalt, die abhangig von einer objektivierten Gruppe 
von Sprechern ist. 

15. Verfahren nach Anspruch 1, 5 oder 13, wobei im 
Profil zumindest ein Parameter fur die Einstellung ei- 
ner Syntaxerkennung bei der Wortfolgeerkennung als 55 
zweiten akustischen Erkennungsabschnitt (42) der Er- 
kennungsumgebung (4) enthalten sind. 

16. Verfahren nach Anspruch 1, wobei ein Profil zu- 
mindest einen Parameter zur Veranderung einer Dia- 
logsteuerung (44) in der Erkennungsumgebung (4) be- 60 
sitzt. 

17. Verfahren nach Anspruch 1, 5 oder 15, wobei ein 
Profil zumindest einen Parameter zur Beeinflussung ei- 
ner semantischen Analyse (43) als einen dritten akusti- 
schen Erkennungsabschnitt in der Erkennungsumge- 65 
bung (4) besitzt. 

18. Verfahren nach Anspruch 1, wobei ein Profil (PO 
Parameter enthalt fur zumindest ein akustisches Model! 
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(41) in Form von Merkmalen zur Anpassung des zu- 
mindest einen Modeils an kehlkopfspezifische Merk- 
male des das Audiosignal erzeugenden Sprechers 
(Spracheigenschaft), zum Laden (8a) in einen akusti- 
schen Erkennungsabschnitt (41) der Erkennungsumge- 
bung (4). 

19. Verfahren nach Anspruch 1, wobei bei der Durch- 
fuhrung einer Sprachbearbeitung in der Erkennungs- 
umgebung (4) gleichzeitig Schlusselworte zur Steue- 
rung des technischen Gerates (52) und Suchworte zur 
Ermittlung vorgespeicherter Informationen, wie Tele- 
fon-Nummern, Benutzerkennungen, mit dem Audiosi- 
gnal (sj verglichen, ohne eine Aufteilung der Sprach- 
signale in einen zeitlichen Abschnitt fur die Erkennung 
von vorgespeicherter Information und einen zweiten 
zeitlichen Abschnitt fur die Erkennung von Schlussel- 
worten. 

20. Verfahren nach Anspruch 1, wobei die gespeicher- 
ten Profile (PO individuelle, insbesondere individuali- 
sierte Profile sind. 

21. Verfahren nach Anspruch 2, wobei die Verande- 
rung des Standard-Profils (PJ zu einem individuellen 
Profil wahrend der Dauer der Einbindung in die Erken- 
nungsumgebung (4) erfolgt, wobei das gespeicherte 
Standard-Profil auBerhalb der Erkennungsumgebung 
unverandert bleibt, aber die Individualisierung des ge- 
ladenen Standard-Profils erfolgt: 

durch Veranderung, insbesondere Reduzieren des vom 

Profil vorgegebenen Wortschatzes; 

und/oder 

durch Verandern der Parameter fiir die Eigenschaft ei- 
ner optischen oder akustischen Dialogausgabe (44, 51); 
und/oder 

durch Verandem einer zur Erkennung zugelassenen 
Menge von Wortfolgen des vom Profil vorgegebenen 
Wortschatzes oder des reduzierten Wortschatzes. 

22. Verfahren nach Anspruch 1, wobei mit einer Dia- 
logausgabe (44, 51) als akustische oder optische Signa- 
lisierung ein Wechsel des in die Erkennungsumgebung 
(4) geladenen Profils vorbereitet oder veranlaBt wird. 

23. Verfahren nach Anspruch 1, wobei die Wortfolge- 
erkennung (42) eingeschrankt wird, insbesondere 
durch Herabsetzen der verwendbaren Worte oder durch 
Einschranken der zur Erkennung zugelassenen Wort- 
folgen. 

24. Verfahren nach Anspruch 23, wobei die Einschran- 
kung nach Ausgabe eines Signals (51, 51a) zur opti- 
schen oder akustischen Signalisierung an einen Benut- 
zer erfolgt. 

25. Verfahren nach Anspruch 1, wobei beim Authenti- 
fizierungsversuch (2) iiber eine zweite Datenbank 
(31*) ein Benutzer einem individuellen Profil aus der 
ersten Datenbank (32) zugeordnet wird. 

26. Verfahren nach Anspruch 25, wobei die zweite Da- 
tenbank (31*) Eintrage besitzt, die geandert oder er- 
ganzt werden, wenn ein neues individuelles Profil in 
der Erkennungsumgebung (4) erstellt und in der ersten 
Datenbank (32) abgespeichert wird. 

27. Verfahren nach Anspruch 1 oder 18, wobei zur 
Verbesserung der Erkennung in der Erkennungsumge- 
bung (4) in einem akustischen Modell (41) cine Anpas- 
sung an eine Art der Ubertragung oder eine Art der 
Aufnahme des aktuellen Audiosignals (sj erfolgt. 

28. Verfahren nach Anspruch 1, wobei die Wortfolge- 
erkennung (42) nach einem erkannten Wort fur das 
nachste zu erkennende Wort eine Begrenzung der ver- 
fugbaren Worte vornimmt, die durch das Profil zuge- 
ordnet oder vorgegeben werden. 
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29. Verfahren nach Anspruch 28, wobei das Audiosi- 
gnal in einer erkannten Kette von Worten gespeichert 
wird. 

30. Verfahren zum sprachgesteuerten Betreiben eines 
Cerates (52), wobei 5 
in einer ersten Linie (F A ) gemaB den Merkmalen (b) 
und (c) des Anspruchs 1 ein erstes Profil (31A) entspre- 
chend dem Ausgangssignal einer gemaB Merkmal (a) 
des Anspruchs 1 aufgebauten und arbeitsfahigen Au- 
thentifizierung (2) ausgewahlt und einer ersten Erken- 10 
nungsumgebung (4A) zugeordnet wird; und 

in einer zweiten Linie (F B ) auch entsprechend den 
Merkmalen (b) und (c), aber gesondert von der vorher- 
gehenden Linie (F A ) eine Auswahl und eine Einbin- 
dung eines anderen Profils (31B) in einer zweiten Er- 15 
kennungsumgebung (4B) erfolgt, auch abhangig von 
dem Ausgangssignal (a*) der Authentifizierung (2); 
eine Entscheidungseinrichtung (6) vorgesehen ist, die 
Ausgangssignale (A, B) der Erkennungsumgebungen 
(4A, 4B) der beiden Linien (F A , F B ) bewertet, um eine 20 
der beiden auszuwahlen und dem zu steuernden Gerat 
(52) Steuersignale zuzufiihren, die der Bedeutung des 
ausgewahlten Signals entweder der ersten oder der 
zweiten Erkennungslinie entsprechen. 

31. Verfahren nach Anspruch 1 oder 30, wobei jede 25 
Erkennungsumgebung aus dem Audiosignal (sj ent- 
sprechend dem eingebundenen oder geladenen Profil 
einen eigenstandigen Bedeutungsgehalt ermittelt, der 
einem Steuersignal entspricht, das dem zu steuernden 
Gerat (52) uber einen Eingang (52a) zufuhrbar ist. 30 

32. Verfahren nach Anspruch 30, wobei eine dritte ei- 
genstandige Linie (F x ) vorgesehen ist, die entspre- 
chend der ersten und zweiten Linie ausgebildet ist und 
deren Ausgangssignal (C) einem Bedeutungsgehalt zu- 
mindest eines Abschnitts des Audiosignals entspricht, 35 
um der Entscheidungseinrichtung (6) zugefiihrt zu wer- 
den, wobei die Entscheidungseinrichtung (6) denjeni- 
gen Bedeutungsgehalt aus den drei zugefuhrten Bedeu- 
tungen (A, B, C) auswahlt, der in der Mehrzahl ist, um 
ihn an das Gerat (52) uber dessen Eingang (52a) zu 40 
iibertragen. 

33. Verfahren nach Anspruch 30, mit einem Verfahren 
nach einem der Anspriiche 1 bis 29. 

34. Einrichtung mit Einzelfunktionen, arbeitsfahig 
nach einem der vorgenannten Verfahrens anspriiche. 45 

35. Verfahren zum Betreiben einer sprachgesteuerten 
Steuerungseinrichtung zur Bedienung eines techni- 
sches Gerates (52), wie eine Telefonvermitdung oder 
eine Telefonanlage; wobei ein Audiosignal (sj aus zu- 
mindest einem von einem Sprecher abgegebenen Wort, 50 
insbesondere mehreren aufeinanderfolgenden Worten, 
welche einen Bedeutungsgehalt besitzen und insoweit 
erkannt werden sollen, einem ersten Signaleingang 
(10) einer Authendfizierungseinrichtung (2) zugefiihrt 
werden; wobei 55 

(a) eine Sprechererkennung aufgrund eines Au- 
thentifizierungsversuchs (2) erfolgt, insbesondere 
durch einen zeidichen Abschnitt des Audiosignals 
(sj, durch Erkennen einer Selbstauthentifizierung 
mittels aktiven Zutuns, oder durch Auswerten von 60 
Sekundarindizien (12), wie eine bekannte Tele- 
fon-Nummer, ein Nebenstellen-AnschluB, um ei- 
nen Sprecher als Individuum oder eine objekti- 
vierte Gruppe von Sprechern festzuiegen, der der 
Sprecher durch objektivierte Kriterien des auf ihn 65 
zuruckzufuhrenden Audiosignals zuzuordnen ist, 
und ein entsprechendes Ausgangssignal (a, a*) 
abzugeben; 



(b) ein zum festgelegten Sprecher oder der objek- 
tivierten Gruppe korrespondierendes Profil (33) 
aus einer Vielzahl gespeicherter Profile (32, Pj) 
ausgewahlt (2, 31) wird, gestutzt auf das Aus- 
gangssignal (a, a*) der Authentifizierung; 

(c) das ausgewahlte Profil (33) in eine Erken- 
nungsumgebung (4) eingebunden oder geladen 
wird, um die Erkennungsumgebung auf den fest- 
gelegten Sprecher bzw. die objektivierte Gruppe 
hin anzupassen; wobei jedes der gespeicherten 
Profile (PJ und das eingebundene oder geladene 
Profit (33) Parameter enthalt, zur Beeinflussung 
zumindest einer in der Erkennungsumgebung (4) 
vorgesehenen Wortfolgeerkennung (42); 

(d) in der Erkennungsumgebung (4) zumindest 
eine Wortfolgeerkennung (42) als lexikalische 
Analyse vorgesehen ist, bei der aus zumindest 
zwei Worten des akustischen Signals eine Bedeu- 
tung der Wortfolge so erkannt wird, daft nach Er- 
kennen eines ersten Wortes fur das nachstfolgende 
Wort nur eine begrenzte Anzahl von Worten des 
durch das Profil zugeordneten Wortschatzes zuge- 
lassen wird. 
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(57) Abstract: The invention relates to a method for 
preparing, operating or adapting a voice-driven con- 
trol device for operating a technical device (52). An 
audio signal (sa) consisting of at least one word ut- 
tered by a speaker is fed to a first signal input (10) of 
an authentication device (2). A speaker recognition 
operation is carried out on the basis of an authentica- 
tion attempt (2) in order to establish a speaker as an 
individual or as an objectivated group of speakers to 
which the speaker is to be assigned through objecti- 
vated criteria of the audio signal to be traced back to 
the speaker, and in order to deliver a corresponding 
output signal (a, a*). A profile (33) corresponding to 
the established speaker or the objectivated group is se- 
lected (2,3 1) from a number of stored profiles (32,Pi) 
with the aid of the output signal (a, a*) from the au- 
thentication, and the selected profile (33) is integrated 
or loaded into a recognition environment (4) in or- 
der to adapt the recognition environment to the estab- 
lished speaker or the objectivated group. Each of the 
stored profiles (Pi) and the integrated or loaded pro- 
file (33) contain parameters for influencing at least 
one recognition of a word sequence (42) provided in 
the recognition environment (4). 

(57) Zusammenfassung: Die Erfindung bezieht 
sich auf ein Verfahren zum Vorbereiten, Betreiben 
oder Anpassen einer sprachgesteuerten Steuerungs- 
einrichtung zur Bedienung eines technisches Gerates 
(52), wobei ein Audiosignal (sa) aus zumindest 
einem von einem Spree her abgegebenen 
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